Regresia liniara Fie o functie: f:[a,b]??, [a,b]?? pentru care sunt cunoscute un numar discret de valori yi într-un numar de puncte de retea xi?[a,b]: f(xi)=yi, > în general, valorile yi sunt afectate de erori de masura sau de erori de calcul > valorile xi se numesc noduri sau puncte de retea Este necesara aproximarea functiei f cu o functie "model" F(xi;aj) cu unde aj se numesc parametri ai functiei model Cunoasterea formei analitice a functiei F face ca aceasta sa poata fi folosita ulterior în diverse calcule, pentru obtinerea valorilor ei în orice punct xi, poate fi integrata sau derivata Determinarea functiei F implica determinarea parametrilor aj astfel încât functia f sa fie aproximata "optim" Forma concreta a functiei F se va determina tinând cont de urmatoarele considerente [Beu99]: * F este determinata de fenomenul fizic modelat * F se va alege dintr-o clasa convenabila de functii care sa ofere simplitate si eficienta în prelucrari ulterioare Cum se determina parametrii functiei model? Pentru determinarea parametrilor functiei model se defineste o functionala care sa reflecte gradul în care functia F aproximeaza functia tabelata f -distanta dintre cele doua functii: - aproximare în medie patratica În functie de tipul valorilor yi, se disting doua cazuri: 1) Daca yi=f(xi) sunt valori exacte se impune anularea distantei d(f,F): d(f,F)=0 ceea ce înseamna ca F(xi; aj)=yi, si metoda corespunzatoare de obtinere a lui F se numeste interpolare Interpolarea implica deci gasirea unei functii F al carei grafic trece prin toate punctele (xi,yi) 2) Daca valorile yi=f(xi) nu sunt exacte ci sunt afectate de erori datorate de exemplu unor erori de masura, se impune minimizarea distantei d(f,F) în raport cu parametrii aj ai functiei model: d(f,F)?minim (în raport cu parametrii aj) În acest caz, procedeul de determinare a functiei F se numeste fitare Concret, se minimizeaza suma abaterilor patratice ale functiei model fata de functia tabelata: - regresie (ajustare) prin metoda celor mai mici patrate Conditiile de obtinere ale parametrilor aj rezulta din conditiile de minim ale functionalei S în raport cu cei k parametri aj: Regresia liniara Functia model este o functie de gradul 1: F=F(xi, aj) j=2 F=ax+b Functionala S are forma: Conditiile de obtinere a parametrilor aj (adica a parametrilor a si b) sunt: ceea ce conduce la: sau: Notam: si tinem cont ca Sistemul de ecuatii de mai sus devine: Înmultind prima ecuatie cu n si a doua cu (-Sx) si adunându-le se obtine: si apoi: Cei doi parametri ai functiei model F=ax+b reprezinta: a - panta dreptei de regresie, adica a=tg(a), unde a este unghiul facut de graficul functiei F cu axa absciselor b - valoarea la care graficul functiei intersecteaza axa ordonatelor Datele cu care s-a lucrat în exemplu de mai sus sunt: 0 1 1310 0 2 1300 0 3 1293 0 4 1283 0 5 1276 0 6 1267 0 7 1260 0 8 1251 0 9 1243 1 0 1233 Cum se procedeaza atunci când functia model nu este o functie de gradul 1? Fie ca exemplu un set de masuratori de radioactivitate: t(ore) ?(mCi) 2 5 280 3 218 3 5 177 4 140 4 5 100 5 85 5 5 67 6 48 6 5 42 7 30 7 5 20 8 17 Dependenta activitatii unui preparat radioactiv de timp este: Reprezentând grafic datele de mai sus se obtine graficul din Fig 3 Evident, pentru fitarea acestor date nu poate fi folosita ca si functie model o functie de gradul 1 Totusi, pentru fitarea datelor poate fi folosita regresia liniara daca se logaritmeaza ecuatia care da dependenta activitatii de timp: Notând acum ln(?0(t))=y' se obtine o relatie liniara între aceste valori si t: y'=a-bt unde a=ln(?0) si b=? Reprezentând grafic logaritmul valoriilor activitatii în functie de timp se obtine graficul din Fig 4, iar prin fitare se obtin parametrii: ln(?0)=6 9565 si ?=0 5119 ceea ce înseamna ca ?0=exp(6 9565)=1049 95 Precizam ca datele reprezentate în Fig 3 au fost simulate cu valorile ?0=1000 mCi si ?=0 5 ore-1, dupa care, unele valori au fost modificate fata de valorile calculate exact Calitatea unei drepte de regresie poate fi analizata dupa coeficientul de corelare R2 Valoarea acestui coeficient se calculeaza cu relatia: O valoare 1 pentru acest coeficient are semnificatia ca functia model explica întreaga variabilitate a lui y, iar valoarea 0 ca nu exista nici o relatie liniara între variabila raspuns si variabila x (între y si x) O valoare de 0 5 a lui R2 poate fi interpretata în felul urmator: aproximativ 50% din variatia variabilei raspuns poate fi explicata de catre variabila independenta Program exemplu: regresia liniara //regresia liniara #include #include void main() { int n; char nf ; float a,b,x,y,Sx,Sy,Sxy,Sxx; FILE *fin; n=0; Sx=Sy=Sxx=Sxy=0; printf("Introduceti numele fisierului de date: "); gets(nf); if((fin=fopen(nf,"r"))==NULL) { printf("Eroare la deschiderea fisierului!"); exit(1); } while(!feof(fin)) { if(fscanf(fin,"%f %f",&x,&y)==2) { n++; Sx+=x; Sy+=y; Sxx+=x*x; Sxy+=x*y; } } fclose(fin); a=(n*Sxy-Sx*Sy)/(n*Sxx-Sx*Sx); b=(Sy-a*Sx)/n; printf("\nn= %d",n); printf("\nParametrii de fit sunt:\na= %g\tb= %g",a,b); } Observatie: Înainte de rularea programului trebuie creat un fisier cu date experimentale! Exercitiu: Modificati programul astfel încât acesta sa calculeze si coeficientul de corelare al dreptei de regresie Curs 10 Regresia liniara 5 